883 research outputs found

    El corpus paral·lel del Diari Oficial de la Generalitat de Catalunya

    Get PDF
    In this paper the process of compilation of the parallel corpus from the Official Diary of the Catalan Government (DOGC) is presented. It describes the downloading process, the tools and processes for the treatment and linguistic analysis. The final result is a big parallel corpus that is freely available in several formats and with several annotation levels. This corpus is a very valuable resource for different applications. As example, three possible fields of application are described: as a translation memory to be used in a Computer-Assisted Translation tool; for terminology extraction and query and for training statistical machine translation systems.En este trabajo se presenta el proceso de compilación del corpus paralelo del Diario Oficial de la Generalitat de Catalunya (DOGC). Describe el proceso de descarga, las herramientas y los procesos para el tratamiento y el análisis lingüístico. El resultado final es un gran corpus paralelo que está disponible gratuitamente en varios formatos y con varios niveles de anotación. Este corpus es un recurso muy valioso para diferentes aplicaciones. Como ejemplo, se describen tres posibles campos de aplicación: como una memoria de traducción para ser utilizada en una herramienta de traducción asistida por computadora; para la extracción y consulta de terminología y para la formación de sistemas estadísticos de traducción automática.En aquest treball es presenta el procés de compilació del corpus paral·lel del Diari Oficial de la Generalitat de Catalunya (DOGC). Descriu el procés de descàrrega, les eines i els processos per al tractament i l'anàlisi lingüística. El resultat final és un gran corpus paral·lel que està disponible gratuïtament en diversos formats i amb diversos nivells d'anotació. Aquest corpus és un recurs molt valuós per a diferents aplicacions. Com a exemple, es descriuen tres possibles camps d'aplicació: com una memòria de traducció per ser utilitzada en una eina de traducció assistida per computadora; per a l'extracció i consulta de terminologia i per a la formació de sistemes estadístics de traducció automàtica

    TMX: Intercambio de memorias de traducción

    Get PDF
    En aquest article presentem TMX (Translation Memory eXchange), el format estàndard d'intercanvi de memòries de traducció. Repassarem el concepte de memòria de traducció i els seus usos, que les converteixen en un dels principals recursos per al traductor. Veurem les estratègies per recuperar de manera ràpida els segments més similars als que estem traduint i els mecanismes per ordenar els segments recuperats segons la seva similitud amb el segment a traduir. Presentarem breument les especificacions del format TMX i els seus diferents nivells i analitzarem el grau d'acceptació d'aquest format entre les eines de traducció assistida.In this paper the standard format for translation memories interchange (TMX) is presented. We review the concept of translation memory and its uses. We also present strategies for quick access to the most similar segments to the one being translated and the ways to sort the retrieved segments according to similarity. The specifications of the TMX format and its levels will be presented. We analyze the degree of implementation of this format in CAT toolsEn este artículo presentamos el TMX (Translation Memory eXchange), el formato estándar de intercambio de memorias de traducción. Repasaremos el concepto de memoria de traducción y sus usos que las convierten en uno de los principales recursos para el traductor. Veremos las estrategias para recuperar de manera rápida los segmentos más similares a que estamos traduciendo y los mecanismos para ordenar los segmentos recuperados según su similitud con el segmento a traducir. Se analizarán los formatos internos de las memorias de traducción en las principales herramientas de traducción asistida y se verá la importancia de disponer de un formato de intercambio que sea estándar, versátil y que permita su evolución para adaptarse a las nuevas necesidades.Presentaremos brevemente las especificaciones del formato TMX y sus diferentes niveles y analizaremos el grado de aceptación de este formato entre las herramientas de traducción asistida. Finalmente presentaremos algunas de las propuestas de futuro para este formato

    Metodología y evaluación de la expansión del WordNet del gallego con WN-Toolkit

    Get PDF
    In this paper the methodology and a detailed evaluation of the results of the expansion of the Galician WordNet using the WN-Toolkit are presented. This toolkit allows the creation and expansion of wordnets using the expand model. In our experiments we have used methodologies based on dictionaries and parallel corpora. The evaluation of the results has been performed both in an automatic and in a manual way, allowing a comparison of the precision values obtained with both evaluation procedures. The manual evaluation provides details about the source of the errors. This information has been very useful for the improvement of the toolkit and for the correction of some errors in the reference WordNet for Galician.En este artículo se presenta la metodología utilizada en la expansión del WordNet del gallego mediante el WN-Toolkit, así como una evaluación detallada de los resultados obtenidos. El conjunto de herramientas incluido en el WN-Toolkit permite la creación o expansión de wordnets siguiendo la estrategia de expansión. En los experimentos presentados en este artículo se han utilizado estrategias basadas en diccionarios y en corpus paralelos. La evaluación de los resultados se ha realizado de manera tanto automática como manual, permitiendo así la comparación de los valores de precisión obtenidos. La evaluación manual también detalla la fuente de los errores, lo que ha sido de utilidad tanto para mejorar el propio WN-Toolkit, como para corregir los errores del WordNet de referencia para el gallego.This research has been carried out thanks to the Project SKATeR (TIN2012-38584-C06-01 and TIN2012-38584-C06-04) supported by the Ministry of Economy and Competitiveness of the Spanish Government

    Methodology and evaluation of the Galician WordNet expansion with the WN-Toolkit

    Get PDF
    In this paper the methodology and a detailed evaluation of the results of the expansion of the Galician WordNet using the WN-Toolkit are presented. This toolkit allows the creation and expansion of wordnets using the expand model. In our experiments we have used methodologies based on dictionaries and parallel corpora. The evaluation of the results has been performed both in an automatic and in a manual way, allowing a comparison of the precision values obtained with both evaluation procedures. The manual evaluation provides details about the source of the errors. This information has been very useful for the improvement of the toolkit and for the correction of some errors in the reference WordNet for Galician.En este artículo se presenta la metodología utilizada en la expansión del WordNet del gallego mediante el WN-Toolkit, así como una evaluación detallada de los resultados obtenidos. El conjunto de herramientas incluido en el WN-Toolkit permite la creación o expansión de wordnets siguiendo la estrategia de expansión. En los experimentos presentados en este artículo se han utilizado estrategias basadas en diccionarios y en corpus paralelos. La evaluación de los resultados se ha realizado de manera tanto automática como manual, permitiendo así la comparación de los valores de precisión obtenidos. La evaluación manual también detalla la fuente de los errores, lo que ha sido de utilidad tanto para mejorar el propio WN-Toolkit, como para corregir los errores del WordNet de referencia para el gallego.En aquest article es presenta la metodologia utilitzada en l'expansió del WordNet del gallec mitjançant el WN-Toolkit, així com una avaluació detallada dels resultats obtinguts. El conjunt d'eines inclòs en el WN-Toolkit permet la creació o expansió de wordnets seguint l'estratègia d'expansió. En els experiments presentats en aquest article s'han utilitzat estratègies basades en diccionaris i en corpus paral·lels. L'avaluació dels resultats s'ha realitzat de manera tant automàtica com a manual, permetent així la comparació dels valors de precisió obtinguts. L'avaluació manual també detalla la font dels errors, la qual cosa ha estat d'utilitat tant per millorar el propi WN-Toolkit, com per corregir els errors del WordNet de referència per al gallec

    "Robinson Crusoe": creación de la edición electrónica bilingüe. El proyecto InLéctor

    Get PDF
    Actualmente el libro electrónico va ganando territorio en el mercado editorial pero sigue siendo un proceso lento y costoso. Para incentivar el uso del libro electrónico se pueden ofrecer prestaciones adicionales que mejoren la experiencia lectora del usuario. Una de estas mejoras puede ser ofrecer conjuntamente el texto original y el traducido. El presente trabajo explica el proceso de creación del libro electrónico bilingüe de la novela Robinson Crusoe de Daniel Defoe para ser incorporada al proyecto InLéctor. Este proyecto pretende crear herramientas para la creación de libros electrónicos bilingües interactivos. Este proyecto se lleva a cabo en el grupo de investigación Language Processing Group (LPG) de la Universitat Oberta de Catalunya (UOC). Las obras y las traducciones literarias que se publican son de dominio público. Los programas desarrollados se basan en software libre y se publicarán también bajo una licencia libre.Nowadays the electronic book is gaining territory in the literary market but it is still a slow and expensive process. To encourage the use of the electronic book it is posible to offer additional features that will improve the user's reading experience. One of these improvements can be the offer of the original text and the translated text together. This project consists of the creation of interactive bilingual ebooks. This project is carried out in the research group Language Processing Group (LPG) of the Universitat Oberta de Catalunya (UOC). The published originals and translations are in the public domain. The developed programs are based on free software and will also be published under a free license

    Morphological Analysis of the Dravidian Language Family

    Get PDF
    The Dravidian family is one of the most widely spoken set of languages in the world, yet there are very few annotated resources available to NLP researchers. To remedy this, we create DravMorph, a corpus annotated for morphological segmentation and part-of-speech. Also, we exploit novel features and higher-order models to achieve promising results on these corpora on both tasks, beating techniques proposed in the literature by as much as 4 points in segmentation F1.Postprint (published version

    PosEdiOn: Post-editing assessment in PythOn

    Get PDF
    There is currently an extended use of postediting of machine translation (PEMT) in the translation industry. This is due to the increase in the demand of translation and to the significant improvements in quality achieved in recent years. PEMT has been included as part of the translation workflow because it increases translators' productivity and it also reduces costs. Although effective post-editing requires sufficiently high quality MT output, usual automatic metrics do not always correlate with post-editing effort. We describe a standalone tool designed both for industry and research that has two main purposes: to collect sentence-level information from the post-editing process (e.g. post-editing time and keystrokes) and to visually present multiple evaluation scores so they can be easily interpreted by a user

    AVI.cat: a virtual assistant for the improvement of writing skills in Catalan

    Get PDF
    En esta demostración presentamos un primer prototipo de asistente para la mejora de la redacción en catalán. El sistema va más allá de un simple corrector gramatical, ya que propone enlaces a gramáticas y ejercicios que permiten al usuario practicar los aspectos donde presenta más carencias. El sistema funciona también como evaluador de nivel y permite realizar un seguimiento de las mejoras del usuario.In this demo we present a first prototype of an assistant for the improvement of writing skills in Catalan. The system is more than a grammatical checker as it proposes links to grammatical explanations and exercises, allowing the user to practice specific aspects. The program also works as a level evaluator and allows to track the user’s improvements

    Bilingual newsgroups in Catalonia: a challenge for machine translation

    Get PDF
    This paper presents a linguistic analysis of a corpus of messages written in Catalan and Spanish, which come from several informal newsgroups on the Universitat Oberta de Catalunya (Open University of Catalonia; henceforth, UOC) Virtual Campus. The surrounding environment is one of extensive bilingualism and contact between Spanish and Catalan. The study was carried out as part of the INTERLINGUA project conducted by the UOC's Internet Interdisciplinary Institute (IN3). Its main goal is to ascertain the linguistic characteristics of the e-mail register in the newsgroups in order to assess their implications for the creation of an online machine translation environment. The results shed empirical light on the relevance of characteristics of the e-mail register, the impact of language contact and interference, and their implications for the use of machine translation for CMC data in order to facilitate cross-linguistic communication on the Internet

    New ceramic technology for catalysis and the reduction of emissions and particulate pollutants into the atmosphere

    Get PDF
    Accèssit del "Premio Jaume Blasco a la innovación", atorgat per l'Asociación Española de Ingeniería de Proyectos, AEIPROInternal combustion engines have been causing a lot of pollution, as in their combustion process produce harmful gases such as CO, hydrocarbons, NOx and particulate matter. Environmental requirements on polluting aspects of the transport sector and in motor vehicles especially, and the demand for sustainable technology for the planet, lead to the need to improve the devices for depuration of gaseous and particulate matter emissions. On the other hand, we can not forget the costs of implementing these systems in the automotive sector in a scenario of economic crisis, with increasing offer and declining demand. In this context, we have been working on a project called MEDEA, which aims to achieve a new technology that combines the following parameters: simplicity; reduced cost of implementation; reduced emissions (able to meet Euro 6 regulations and reduce CO2 emissions to 130 g/km); and durability. In this paper we present the development and results of the first phase of this project carried out on behalf of the Chair SEAT.Award-winningPostprint (published version